第 8 卷 第 4 


Information Technology Letter 


信息 技术 快报 Vol.8 No.4 


Jul. 2010 


言 息 检 索 关 键 技术 及 高 性 能 检索 系统 设计 


MEH WEE 朱 小 飞 KE 程 学 旗 


摘要 : 网 络 等 技术 的 快速 发 展 ， 使 人 们 能 够 访问 的 数据 规模 急剧 增加 。 如 何 从 海量 信息 中 找到 需要 的 信息 
成 为 难题 。 信 息 检 索 技 术 是 应 对 该 问题 的 有 效 手 段 ， 可 以 快速 有 效 地 帮助 人 们 找到 自己 需要 的 信息 。 本 文 
介绍 了 检索 技术 中 使 用 的 索引 组 织 、 检 索 模 型 、 查 询 分 析 等 关键 技术 及 本 课题 组 开发 和 维护 的 高 性 能 开源 
检索 系统 FirteX 。 
关键 词 : 信息 检索 、 检 索 模型 、 查 询 分 析 、 排 序 学 习 (Learning to rank)、FirteX 
1 引言 

随 着 互联 网 信息 数量 的 急速 膨胀 , 信息 检索 作为 一 种 有 效 的 信息 获取 手段 , 在 人 们 的 日 
常生 活 中 日 益 变 得 重要 。 广 义 的 信息 检索 包括 文本 检索 、 图 像 检索 、 音 视频 检索 等 ; 狭义 的 


信息 检索 是 指 文本 检索 或 者 文档 检索 ， 尤 其 指 对 
务 就 是 研究 如 何 从 相对 稳定 的 文本 数据 集中 检索 


文本 检索 相关 的 关键 技术 。 


具体 来 说 ， 信 息 检 索 完 成 的 
工作 是 根据 用 户 的 查询 请 求 ， 在 
一 个 文档 集中 找 出 与 用 户 请 求 
最 为 接近 的 文档 子 集 。 厂 图 给 出 
了 信息 检索 系统 的 一 般 处 理 过 
程 。 信息 检 索 首 先 对 文本 建立 索 
引 。 索 引 可 以 有 效 提 高 检索 效 
率 。 检 索 时 用 户 向 检索 系统 提交 
查询 ， 检 索 系 统 根据 事先 建立 的 
索引 进行 检索 ， 最 后 把 检索 到 的 
文档 根据 一 定 的 算法 排序 ， 按 与 
查询 请 求 相 关 度 从 高 到 低 的 顺 
序 返回 给 用 户 。 


在 信息 检索 中 ， 查 询 请 求 是 
指 


排序 文档 


引用 户 对 信息 需求 的 描述 ， 是 月 


上 户 信息 需求 的 一 和 


结构 化 ) 文本 的 检索 ， 其 任 
:要 针对 


FE 结构 化 《或 
与 用 户 需 求 相 关 的 文本 。 本文 将 3 


用 户 查 询 需 求 
文档 内 容 分 析 


文档 格式 分 析 


查询 表达 式 


检 出 的 文档 


倒 排 索引 构建 


图 1. 检索 系统 的 一 般 处 理 过 程 


外 在 表现 形式 ; 文档 是 检索 系统 的 基本 检 


索 对 象 或 检索 粒度 , 通常 是 


RE 


自然 语言 所 描述 的 非 结 构 化 的 自由 文本 或 


结构 化 的 文本 ,如 


网 页 、 文 字 新 闻 、 学 术 出 版 物 、 产 品 


AE 


HR BARSE SCR SR Te FS UE — ce BC SRS SS 


HH 


NS 


合 。 根 据 文档 类 型 的 不 同 ,文档 集会 随 
P, 而 
曼 和 方式 ， 又 可 将 文档 集 分 为 静态 文档 集 、 增 量 文档 集 和 


天 添加 一 些 新 书 或 者 移 除 一 些 旧 


会 发 生 更 新 。 根 据 文档 集 更 新 的 ; 
动态 文档 集 。 


在 面向 Web 的 信息 检索 系统 


的 模块 : 信息 采 


时 间 发 生 频 度 不 同 的 改变 。 例如， 数字 图 书馆 可 能 


也; 


Pa 


集 和 信息 抽取 。 它 们 都 是 为 得 


论坛 的 帖子 、 博 客 的 文章 和 上 架 的 商品 可 能 几 分 钟 就 


除 上 图 的 一 般 处 理 过 程 ， 通 常 还 会 包含 另外 两 个 重要 
到 检索 用 的 文档 集 做 准备 的 过 程 。 信 息 采 集 的 
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任务 是 从 网 上 获取 信息 , 通常 使 用 网 络 爬 虫 完 成 。 信 息 抽取 完成 的 工作 是 从 采集 到 的 半 结 构 
化 数据 获取 用 于 建立 索引 的 结构 化 数据 。 


这 息 检 索 的 研究 范围 十 分 广泛 ， 涉 及 信息 采集 、 表 示 、 组 织 、 存 储 、 访 问 和 搜索 等 门 。 
近年 来 ， 随 着 云 计算 的 流行 ， 越 来 越 多 的 研究 者 开始 设计 基于 云 计算 平台 的 信息 检索 系统 。 
这 些 系统 可 以 很 好 地 适应 大 规模 数据 的 检索 需求 ,但 由 于 它们 的 基本 原理 与 图 1 给 出 的 一 般 
处 理 过 程 相 比 没有 发 生 大 的 变化 ， 我 们 将 不 再 深入 到 细节 中 。 


本 文 将 从 索引 组 织 、 检 索 模 型 、 查 询 分 析 等 角度 对 信息 检索 系统 的 关键 技术 进行 介绍 。 
第 二 节 针 对 不 同文 档 集 分 别 介绍 不 同 的 索引 组 织 方法 ; 第 三 节 给 出 了 常用 的 检索 模型 ， 
时 介绍 了 排序 学 习 技术 的 进展 ; 第 四 节 总 结 了 查询 分 析 相关 技术 。 最 后 ,在 第 五 节 介 绍 本 
题 组 开发 的 高 性 能 开源 检索 软件 FirteX 的 设计 。 


其中， 
my 


2 RIAR 


第 一 节 已 提 及 ， 为 文档 集 建立 索引 是 为 加 快 完成 检索 任务 的 速度 外。 针对 不 同 需求 ， 常 
见 的 索引 组 织 方式 有 : 签名 档 、 位 图 文件 和 倒 排 索引 等 ， 其 中 倒 排 索引 是 信息 检索 中 最 常见 
的 索引 形式 。 


签名 档 (Signature File〉 是 一 种 基于 概率 方法 的 文本 索引 结构 路， 它 将 每 篇 文档 用 一 个 
签名 来 表示 。 签名 由 一 系列 的 位 掩 码 组 成 , 在 一 定 程度 上 描述 了 文档 的 内 容 。 位 图 (Bitmap) 
一 种 很 简单 的 索引 结构 。 对 于 词典 中 的 每 个 词 ， 都 用 一 个 位 向 量 表示 ， 其 中 每 一 位 对 应 一 
篇 文档 。 如 果 这 个 词 出 现在 文档 中 则 设 为 1， 否 则 设 为 0。 倒 排 索引 是 面向 单词 的 索引 机 制 。 
倒 排 索引 由 词汇 表 和 事件 表 两 部 分 组 成 。 词汇 表 中 的 每 个 元 素 均 称 为 词 或 索引 项 , 事件 表 则 
是 倒 排 链 的 集合 ,每 个 词 对 应 一 个 倒 排 链 。 倒 排 链 一 般 也 称 作 后 级 链 ,包含 词 所 在 文档 的 编 
号 、 出 现 频 率 和 出 现 位 置 等 信息 。 也 就 是 说 ,文档 的 原始 形式 是 文档 包含 词 的 关系 ， 而 倒 排 
索引 的 构建 就 是 将 这 种 关系 颠倒 过 来 , 变 成 词 包含 文档 的 关系 , 这 也 是 “ 倒 排 ”名 称 的 由 来 。 
2 给 出 了 简化 的 倒 排 索引 的 例子 


H 


1 中 国 /有 /很 多 /大 城市 /， /北京 /是 /1 
9/ 大 城市 
上 海 /是 / 中国/ 的 /大 城市 
3 2008/ 年 /奥运 会 /在 /中 国 /北京 /举办 
4 北京 /在 /中 国 /的 /北部 /，/ 上海/ 在/ 
/的 /南部 


<] ,2><2,1><5,2> 
<1,1><3,1><4,1><5,1><6,1> 

<] A ] ><2, ] ><5,2> 

<1,1><2,1><4,2><5,2> 
<2,1><4,1><5,1><6,1> 
<3,1> 


SASS 


NP Shee ptt 


Oot 
OO 


5 北京 /是 /中 国 /北部 /的 /大 城市 /，/ 上海/ 
是 /中 国 /南部 /的 /大 城市 
6 上 海 / 气 候 / 湿 润 /，/ 北 京 /气候 /干燥 


Ee 


文档 倒 排 索引 
(<x,y>，X 代表 文档 号 ，y 代表 出 现 频 率 ) 
图 2. 倒 排 索引 的 例子 


倒 排 索引 的 构建 需要 大 量 的 CPU、 内 存 和 磁盘 资源 。 同 时 ， 为 了 提高 检索 效率 ， 减 少 
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磁盘 操作 ， 一 般 将 一 个 倒 排 链表 存放 在 一 个 连续 的 磁盘 空间 。 在 实际 情况 下 ， 文 档 集 往往 非 
常 大 ， 其 索引 远 远 超过 了 能 完全 放 入 内 存 的 大 小 上 限 。 因 此 ， 我 们 希望 借用 磁盘 空间 来 构建 
大 规模 文档 集 。 下 面 我 们 根据 文档 集 的 不 同 分 别 讨论 倒 排 索引 的 建立 方法 。 


2.1 静态 文档 集 的 索引 


静态 文档 集中 的 文档 不 发 生变 化 ,索引 建立 过 程 可 以 一 次 或 多 次 访问 文档 集 来 完成 。 总 
体 来 说 ,借助 磁盘 空间 构建 大 规模 文档 集 的 倒 排 索引 主要 有 三 种 方法 : 基于 排序 的 倒 排 索引 
构建 、 两 趟 (多 趟 ) 倒 排 索引 构建 、 一 趟 内 存 倒 排 索引 构建 。 


HE CLL. Witten ) 等 人 中 认为 倒 排 索引 的 构建 实际 上 是 一 个 排序 的 过 程 ， 原 始 的 文档 
可 以 看 成 是 由 三 元 组 (bd, fae) 组 成 的 单元 ， 其 中 上 表示 词 ，d 表示 文档 编号 ， 太 表示 该 词 
在 文档 gd 中 出 现 的 频率 。 如 果 考 虑 词 的 位 置 ， 则 每 个 三 元 组 还 对 应 一 个 词 位 置 序列 
(wW Wa) 。 整 个 文档 集 可 以 看 成 是 多 个 有 序 三 元 组 (4d, fae) 的 集合 ， 因 此 倒 排 索引 
的 构建 只 需要 将 上 述 三 元 组 按照 排序，t 相同 再 按 排序 即 可 。 


两 趟 (多 趟 ) 倒 排 索引 构建 方法 最 初 由 福克斯 (E. Fox) PÆ (W. Lee) Hih, JEH 
维 顿 等 人 中 改进 。 该 方法 通过 多 趟 扫描 文档 集 构建 倒 排 索引 。 第 一 趟 扫描 生成 整个 文档 集 的 
词典 ， 并 统计 文档 集中 各 个 词 的 详细 信息 。 经 过 一 趟 完整 的 文档 集 扫 描 ， 除 了 在 内 存 中 生成 
了 整个 文档 集 的 完整 词典 外 ,也 准确 地 知道 了 各 个 词 的 倒 排 链 长 度 , 可 以 预先 分 配 各 个 词 的 
倒 排 链 的 磁盘 存储 空间 。 在 后 续 的 文档 集 扫 描 中 , 直接 将 词 的 倒 排 链 填充 到 预先 分 配 的 空间 
中 。 这 种 方法 能 保证 单个 词 的 倒 排 链 在 磁盘 上 连续 存放 。 


在 一 趟 内 存 倒 排 索引 构建 方法 中 , 对 每 个 词 维护 一 个 链表 或 动态 增长 的 数组 , 用 于 记录 
该 词 的 所 有 三 元 组 (t,d, fa)。 在 处 理 过 程 中 ， 各 个 词 的 倒 排 链 是 持续 增长 的 。 当 倒 排 链 的 
增长 导致 内 存 耗 尽 时 ， 则 将 内 存 中 的 所 有 词 及 其 倒 排 链 写 入 磁盘 ， 形 成 临时 子 索引 《也 称 为 
run)， 释 放 内 存 空间 ,准备 构建 下 一 批文 档 的 倒 排 索引 。 上 述 过 程 循环 执行 直到 所 有 文档 处 
理 完 毕 。 这 时 磁盘 上 存在 多 个 临时 子 索引 ， 再 采用 多 路 归并 将 所 有 子 索引 合并 ， 形 成 最 终 的 
倒 排 索引 。 该 方法 由 海 因 效 (S. Heinz) 和 佐 贝尔 (J. Zobel)〉 等 人 首次 提出 外 ,文献 [2]、[4]、[5] 
给 出 了 以 上 索引 构建 方法 的 对 比 , 指出 最 高 效 的 是 一 趟 内 存 倒 排 索引 构建 方法 ， 其 规模 可 扩 - 
展 性 也 非常 好 ， 可 以 处 理 任意 大 小 的 数据 集 。 


O 2.2 动态 文档 集 的 索引 


动态 文档 集会 随 着 时 间 变 化 发 生 增删 和 修改 。 在 文档 集 发 生变 化 时 , 为 了 保证 检索 结果 
的 正确 性 ， 索 引 也 要 进行 相应 的 更 新 。 由 于 索引 的 更 新 一 般 是 在 提供 检索 服务 的 同时 进行 ， 
所 以 索引 更 新 策略 必须 同时 兼顾 索引 的 效率 和 检索 的 效率 ,更 新 倒 排 索引 最 直接 的 方法 是 丢 
弃 旧 的 倒 排 索引 ， 重 新 扫描 文档 集 以 建立 新 的 索引 。 这 种 方法 称 为 索引 重建 。 除 此 之 外 ， 常 
见 的 索引 更 新 方法 还 有 原 地 索引 更 新 、 基 于 合并 的 索引 更 新 方法 等 。 


原 地 索引 更 新 方法 的 基本 思想 是 : 当 文 档 集 内 的 文档 发 生变 化 时 , 单独 更 新 倒 排 索引 中 
发 生变 化 的 倒 排 链 ， 而 其 他 没有 发 生变 化 的 倒 排 链 则 保持 不 变 。 在 实际 应 用 中 ,文档 的 索引 
数据 首先 累积 在 内 存 中 。 当 内 存 不 够 时 , 将 内 存 中 所 有 词 的 倒 排 链 更 新 到 磁盘 上 相应 的 倒 排 
链 中 。 倒 排 链 的 原 地 更 新 需要 考虑 倒 排 链 的 空间 管理 问题 。 将 倒 排 链 累 积 在 内 存 中 可 以 大 幅 
度 降 低 磁盘 上 倒 排 链 的 更 新 次 数 。 在 较 少 文档 更 新 情况 下 ， 原 地 索引 更 新 方法 具有 不 错 的 性 
能 。 随 着 数据 规模 的 增长 、 更 新 频率 的 加 快 ， 原 地 索引 更 新 的 性 能 会 急剧 下 降 ”。 


基于 合并 的 索引 更 新 方法 首先 在 内 存 中 建立 文档 的 倒 排 索引 。 当 内 存 不 够 时 , 依次 读 取 
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磁盘 上 每 个 词 的 倒 排 链 ， 与 内 存 中 对 应 词 的 倒 排 链 合并 ， 再 写 入 新 的 磁盘 位 置 。 所 有 词 的 倒 
排 链 合 并 完成 后 ， 在 磁盘 上 形成 新 的 倒 排 索引 。 在 基于 合并 的 索引 更 新 方法 中 ， 需 要 读 取 磁 
盘 上 所 有 的 倒 排 链 , 不管 这 些 倒 排 链 有 没有 进行 更 新 。 最 后 生成 的 新 索引 的 所 有 倒 排 链 也 是 
按照 词 的 递增 顺序 连续 存储 。 用 户 查 询 处 理 过 程 中 , 单个 词 的 倒 排 链 只 需要 一 次 磁盘 定位 和 
读 取 操 作 ， 可 以 最 大 限度 提高 查询 处 理 的 性 能 。 基 于 合并 的 索引 更 新 ,根据 合并 方式 、 磁 盘 
上 最 多 可 允许 的 子 索 引 数 目 等 因素 的 不 同 可 以 分 为 多 种 方法 : 只 允许 磁盘 上 存在 一 个 子 索 引 
的 更 新 方法 有 立即 合并 更 新 方法 ， 允 许 磁 盘 上 存在 多 个 子 索 引 的 更 新 方法 主要 有 无 合并 策 
省， 此 外 还 有 介 于 立即 合并 和 无 合并 策略 之 间 的 对 数 合 并 策略 、 几 何 分 割 合并 策略 等 。 


a) 立即 合并 


立即 合并 索引 更 新 方法 也 称 为 再 合并 索引 更 新 方法 。 顾名思义 , 就 是 当 内 存 子 索 引 需 要 
迁移 到 磁盘 上 时 , 如 果 磁 盘 上 已 存在 倒 排 索引 , 则 将 内 存 子 索 引 与 磁盘 子 索 引 立 刻 进 行 合并 ， 
生成 新 的 索引 替代 旧 索 引 。 这 种 索引 更 新 方式 在 磁盘 上 始终 只 保持 一 个 子 索 引 ，, 每 个 词 的 倒 
排 链 都 是 顺序 、 连 续 存 储 ， 因 此 可 以 最 大 限度 保 隐 查询 处 理性 能 。 但 是 ， 每 次 索引 合并 操作 
都 需要 读 取 、 处 理 整 个 磁盘 子 索引 ， 不管 其 中 的 倒 排 链 是 否 已 更 新 。 因 此 ， 索 引 构 建 的 代价 
较 大 。 从 表面 看 来 ， 因 为 在 每 次 的 索引 合并 中 都 需要 重新 读 取 、 处 理 已 有 的 磁盘 子 索 引 ， 索 
引 更 新 的 性 能 可 能 很 差 。 莱 斯 特 (N. Lester ) SAST 对 立即 合并 索引 更 新 方法 和 原 地 索 
引 更 新 方法 进行 了 实验 对 比 和 分 析 。 他 们 的 结论 是 ,在 很 多 实际 场合 中 ， 立 即 合并 索引 更 新 
方法 的 性 能 反而 要 比 原 地 索引 更 新 方法 的 性 能 更 优 。 


(2) 无 合并 索引 更 新 方法 


在 无 合并 索引 更 新 方法 中 , 当 内 存 耗 尽 时 将 内 存 倒 排 索引 直接 写 入 磁盘 ,形成 新 的 磁盘 
子 索引 ， 不 作 任何 索引 合并 的 操作 ， 在 磁盘 上 保持 多 个 子 索 引 。 在 检索 过 程 中 ， 词 的 倒 排 链 
的 获取 通过 读 取 所 有 磁盘 子 索 引 中 对 应 的 倒 排 链 完 成 。 该 方法 对 磁盘 上 的 每 个 子 索引 只 需要 
做 一 次 写 操作 ， 可 以 使 索引 更 新 的 性 能 最 佳 。 但 是 , 每 个 词 的 倒 排 链 可 能 分 布 在 多 个 位 盘子 
索引 中 ， 进 行 查询 处 理 时 需要 多 次 磁盘 定位 和 读 取 操 作 ， 影 响 查 询 处 理 的 性 能 。 


G) 对 数 索 引 更 新 方法 


立即 合并 和 无 合并 的 索引 更 新 方法 是 在 线索 引 更 新 的 两 种 极端 方式 , 只 能 单方 面 提高 查 
询 处 理 的 性 能 或 索引 更 新 的 性 能 ,动态 文本 在 线索 引 构 建 往往 需要 同时 考 上 处 查询 处 理 和 索引 
更 新 的 性 能 ， 要 求 既 具 有 较 好 的 索引 更 新 性 能 ， 又 保证 查询 处 理 的 性 能 不 会 下 降 太 多 。 Ae 
JK (S. BUttcher) 提出 了 一 种 对 数 合并 索引 更 新 方法 中 ， 引 入 了 索引 “ 代 " 的 概念 。 从 内 存 中 
迁移 到 磁盘 上 的 子 索 引 称 为 第 0 代 子 索引 ， 由 第 0 代 子 索引 合并 生成 的 子 索引 称 为 第 1 代 ， 
依 此 类 推 。 同 一 代 中 不 允许 同时 出 现 两 个 子 索 引 ， 如 果 出 现 则 触发 一 次 合并 事件 ， 生 成 新 一 
代 子 索引 。 如 果 新 生成 的 子 索 引导 致 同一 代 又 出 现 两 个 子 索引 ， 将 再 触发 一 次 合并 事件 ， 这 
两 次 合并 操作 合并 成 一 次 进行 。 文 献 [8] 分 析 了 对 数 索 引 更 新 方法 的 索引 更 新 和 得 询 处 理 代 


价 。 
(4) 几何 分 割 索引 更 新 方法 


莱 斯 特 提出 了 一 种 类 似 于 对 数 合并 索引 更 新 的 策略 包 ， 称 为 几何 分 割 索引 更 新 方法 。 民 
基本 思想 是 将 待 索引 的 数据 集 分 为 多 个 数目 可 控 的 分 块 (Partition)， 每 个 分 块 的 大 小 遵循 一 
定 的 几何 规律 。 详 细 描述 如 下 : 假设 内 存 中 可 容纳 b 篇 文档 ， 引 入 参数 r ， 每 个 分 块 遵循 下 
面 的 规则 : 每 级 分 块 包 含 的 文档 数目 至 多 为 (r-Db(r-Drm(r-1lr2b (rr-TDrcDpb。 


其 中 K 表示 第 K 级 分 块 。 在 第 k 级 ， 分 块 要 么 为 裤 ， 要 么 至 少 包含 咪 也 篇 文档 。 调 整 
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参数 r 可 以 一 定 程度 地 调节 索引 更 新 和 查询 处 理 的 性 能 平衡 。 和 对 数 合并 索引 更 新 方法 一 
样 ,几何 分 割 索引 更 新 方法 既 不 会 有 太 频 繁 的 索引 合并 操作 , 磁盘 上 也 不 会 有 大 多 的 子 索 引 ， 
既 可 以 保证 索引 更 新 的 性 能 , 查询 处 理 的 性 能 也 不 会 下 降 太 多 。 关 于 几何 分 割 索引 更 新 方法 
的 详细 分 析 和 讨论 ， 可 以 参考 文献 [9]。 


(5) 基于 动态 平衡 树 的 索引 更 新 方法 


郭 瑞 杰 mM” 提出 了 基于 动态 平衡 树 的 索引 更 新 策略 。 动 态 平衡 树 是 一 棵 m UL, ALB 
k+1 层 节 点 的 大 小 大 约 是 第 k 层 节 点 大 小 的 c 倍 (m 和 c 是 算法 参数 )， 如 果 一 棵 树 中 所 有 结 
点 都 满足 该 条 件 ， 称 这 棵 索引 合并 树 是 平衡 的 。 在 基于 动态 平衡 树 的 索引 更 新 算法 中 ， 新 加 
入 的 子 索 引 根 据 大 小 加 入 树 的 对 应 层 。 如 果 新 索引 的 加 入 导致 树 中 某 些 结 点 不 满足 平衡 条 
件 ， 则 以 通过 合并 子 索引 的 方式 恢复 树 的 平衡 。 在 该 算法 中 ,索引 合并 操作 基本 只 在 同一 层 
的 节点 之 间 进 行 ， 可 以 保证 参与 合并 的 各 个 子 索引 大 小 相近 ， 从 而 保证 索引 合并 的 效率 。 引 
文 [10] 的 实验 分 析 表 明 ， 基 于 动态 平衡 树 的 索引 合并 算法 具有 较 以 上 索引 合并 算法 更 好 的 性 


3 ”检索 模型 


在 信息 检索 中 ， 文 档 排序 是 核心 “排序 ”就 是 在 一 个 文档 集合 中 ， 对 于 给 定 的 查询 ， 
使 用 检索 模型 给 每 篇 文档 打分 , 然后 按照 每 篇 文档 的 得 分 从 高 到 低 排序 , 排序 的 次 序 代表 了 
文档 与 查询 之 间 的 相关 性 。 信息 检 索 中 的 排序 方法 起 源 于 传统 文本 检索 领域 的 排序 方法 ， 如 
向 量 空间 模型 (Vector Space Model)， 概 率 模型 (如 Okapi BM25) 和 语言 模型 (Language 
Model). 链接 分 析 ( 如 Pagerank, HITS?" (¥) HH EMA ASHE Te T Web 检索 的 有 效 性 。 近 年 来 ， 
排序 学 习 (Learning to Rank) 已 经 成 为 检索 领域 的 一 个 热点 问题 。 


3.1 传统 排序 模型 


传统 的 排序 模型 中 , 比较 具有 代表 性 的 方法 有 : 回 量 空间 模型 , 概率 模型 (Okapi BM25)， 
语言 模型 以 及 链接 分 析 模 型 (Pagerank、HITS)。 


3.1.1 向 量 空间 模型 


向 量 空间 模型 是 以 词汇 向 量 的 形式 表示 文档 , 通过 计算 向 量 的 相近 程度 来 判断 文档 的 相 
关 性 。 在 检索 过 程 中 , 查询 和 文档 都 被 转化 成 词 的 向 量 表示 , 通过 计算 向 量 之 间 的 相似 性 (如 
夹 角 余弦 ) 得 到 查询 和 每 个 文档 的 相似 度 。 向 量 权 重 的 计算 通常 使 用 TF-IDF， 其 中 TF 是 词 
在 文档 中 出 现 的 次 数 ，IDF 是 逆 文 档 频 率 。 该 模型 的 优点 是 计算 简单 ， 缺 点 是 使 用 的 大 都 是 
经 验 公 式 ， 缺 乏 理 论 验证 。 


3.1.2 概率 模型 


在 概率 模型 中 ， 为 了 表示 文档 D 和 查询 Q 是 否 相 关 ， 设 相关 性 R 取 值 为 r 或 7 ， 分 别 
表示 D FQ 相关 或 者 不 相关 。 概 率 检索 模型 的 目标 就 是 估计 文档 D AQ 相关 的 概率 ， 即 
P(R=r|D,Q) 。 一 般 使 用 相关 概率 和 不 相关 概率 的 比值 来 计算 文档 和 查询 的 相关 性 ， 即 


ing LES 
P(r |D,Q) 


Okapi BM25 是 一 种 著名 的 概率 模型 ，Okapi BM25 的 相似 度 计算 公式 为 : 
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5 (mN -of w) +05 (kı +1) xc(w,d) (ks +1) xe(w,d) 


vard df (w) + 0.5 k3+c(w,d) ) 


ki((1— Di 加 +c(w,d) 
avdl 


其 中 q,q 分 别 表 示 查 询 和 文档 ，|d| 是 文档 q 的 长 度 ，avdl 是 文档 集合 中 文档 的 平均 长 
度 。w 表示 特征 词 项 ，c(w,d ) 和 c(w,q) 分 别 表 示 w 出 现在 d Allg 中 的 个 数 ，N 是 文档 集 
合 中 的 文档 总 数 ，qdf (w) 表示 出 现 w 的 文档 个 数 。P(w|C) 表示 C 中 出 现 w 的 概率 。 公 式 
中 的 ,ka,b 都 是 人 工 经 验 调 节 的 参数 。 概 率 模型 的 优点 在 于 具有 良好 的 数学 理论 基础 ， 缺 
点 在 于 无 法 处 理 语 言 中 的 长 距离 依赖 关系 。 


3.1.3 语言 模型 


语言 模型 把 相关 度 看 成 是 每 篇 文档 对 应 的 语言 下 生成 该 查询 的 可 能 性 ， 对 于 一 篇 文档 
d =wi,w2，…,wn ， 统 计 语 言 模 型 是 指 概率 P 了 (wi,w2，…,wn )。 根 据 贝 叶 斯 公式 ， 有 : 


P(w, W25: wn)=P (w253 wn|wi)=……=P (wi) P(w; |wi- wi) 
i=2 


通常 采用 一 元 模型 ， 即 假设 文档 中 各 个 词 都 是 独立 的 ， 此 时 


ET 


i=1 


对 于 给 定 的 查询 ， 我 们 可 以 计算 各 个 文档 生成 该 查询 的 概率 P (w|D) ， 并 以 此 作为 判断 
文档 与 查询 相似 性 的 依据 。 由 于 存在 数据 稀 朴 性 问题 ， 计 算 结 果 可 能 出 现 零 概率 。 解 决 的 方 
法 是 使 用 数据 平滑 技术 ， 为 所 有 未 观测 到 的 特征 词 项 分 配 一 个 大 于 零 的 概率 。 


常用 的 平滑 方法 包括 线性 插值 平滑 ( 亦 称 Jelinek-Mercer 平滑 ) 方 法 、 狄 利克 雷 (Dirichlet) 
平滑 方法 以 及 绝对 折扣 (Absolute Discount) 平滑 方法 ， 该 方法 通过 将 已 观测 到 的 词 项 的 频 
度 减 去 一 个 常量 的 办 法 来 降低 已 发 生 事件 的 概率 。 


3.1.4 链接 分 析 模 型 (Pagerank, HITS) 


链接 分 析 模 型 通过 网 页 间 权 值 的 传送 ， 得 到 各 个 网 页 的 重要 性 ， 重 要 性 越 大 ， 排 序 越 靠 
前 。 代 表 性 的 方法 有 Pagerank 和 HITS 方法 ， 两 者 之 间 的 区 别 在 于 PageRank 权 值 的 传送 是 
直接 在 权威 (authority〉 型 网 页 间 进 行 的 ， 而 HITS 在 权 值 转送 时 ， 权 威 型 网 页 的 权 值 需 经 
过 目录 Chub) 网 页 的 传递 再 进行 传播 。 


3.2 排序 学 习 


随 着 信息 检索 研究 的 不 断 发 展 ， 人 们 逐渐 意识 到 ， 有 太 多 的 因素 会 影响 到 排序 ， 仅 仅 依 
赖 于 文本 和 链接 的 排序 方式 具有 很 大 的 局 限 性 。 如 果 把 这 些 相 关 的 因素 看 成 特征 ,并 能 够 用 
某 种 机 器 学 习 的 方式 综合 考虑 , 得 出 一 个 最 合理 的 排序 函数 ,将 能 够 有 效 地 提高 排序 的 效果 ， 
这 也 就 是 排序 学 习 要 解决 的 最 根本 问题 。 目 前 ， 排 序 学 习 研 究 的 趋势 主要 是 从 基于 数据 点 

(Pointwise 〉 的 排序 方法 到 基于 有 序 对 (Pairwise 〉 的 排序 方法 ， 再 到 基于 列表 (Listwise) 
的 排序 方法 ， 从 查询 无 关 到 查询 相关 的 进一步 发 展 。 


3.2.1 基于 数据 点 的 排序 方法 


基于 数据 点 的 排序 方法 是 最 早 提出 的 ， 其 基本 思想 是 将 查询 /文档 对 Cquery/document ) 
看 成 是 一 个 训练 样本 ,查询 与 文档 的 相关 程度 看 成 是 该 训练 样本 得 分 或 类 别 。 这样 就 可 以 将 


~~ 
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排序 问题 转化 成 为 一 个 回归 问题 或 分 类 问题 进行 求解 。 代 表 性 的 方法 有 PRank0 和 
MCRank 方法 。 

PRank (Perceptron Rank) 方 法 将 查询 /文档 对 看 成 是 训练 样本 ， 每 个 训练 样本 对 应 其 相应 
的 排序 等 级 。PRank 的 主要 思想 是 : 将 训练 样本 映射 到 相应 的 实数 值 ， 同 时 每 个 排序 等 级 对 
应 于 一 个 实数 区 间 ， 这样 就 可 方便 地 得 到 各 个 训练 样本 的 排序 等 级 。PRank 通过 调整 一 个 权 
重 向 量 来 使 得 排序 损失 最 小 化 ,理论 上 可 以 证 明 该 方法 是 保 序 的 、 并 且 具 有 错误 边界 (mistake 
bound)， 这 两 个 性 质 确保 了 PRank 算法 的 正确 性 和 收敛 性 。 

MCRank 方法 将 排序 问题 看 成 是 一 个 多 分 类 问题 来 处 理 , 使 用 多 个 分 类 器 的 综合 结果 来 
确定 最 终 的 排序 。 在 MCRank 方法 中 ， 首 先 对 训练 样本 〈 碍 询 / 文 档 对 ) 进行 分 类 ， 得 到 其 
所 在 类 别 ， 例 如 将 训练 样本 归 入 到 天 个 类 别 {0,1,2,…,K 一 如 中 的 一 个 类 别 ， 然 后 按照 类 别 
进行 排序 。 对 于 类 别 相同 的 训练 样本 ， 其 排序 可 以 任意 ， 这 就 造成 使 用 MCRank 时 ， 排 序 
埋 果 不 稳定 。 为 了 避免 此 问题 ， 可 以 对 每 一 个 训练 样本 进行 软 分 类 (soft classification)， 得 
1 训练 样本 的 类 别 分 布 , 然后 根据 其 期 望 相 关 性 对 其 进行 打分 , 并 将 训练 样本 按照 得 分 降序 
Zip 


3.2.2 基于 有 序 对 的 排序 方法 


基于 有 序 对 的 排序 方法 利用 文档 之 间 的 相关 性 的 相对 大 小 的 关系 来 构造 训练 样本 ， 即 
每 个 样本 由 一 对 文档 组 成 , 若 前 一 个 文档 比 后 一 个 文档 更 相关 , 其 类 别 为 正 , 否则 类 别 为 负 。 
这 样 就 可 以 对 新 来 的 一 对 文档 进行 分 类 , 若 结果 为 正 ， 则 表明 前 一 个 文档 比 后 一 个 文档 更 相 
关 ; 若 结果 为 负 ， 则 表明 后 一 个 文档 比 前 一 个 文档 更 相关 。 代 表 性 的 方法 有 : RankNetn' 
RankBoost "71, Ranking SVM", 


= 


S 


a Wh 


{HT CC. Burges) 和 沙 克 德 CT. Shaked) 等 人 给 出 了 一 种 简单 的 概率 代价 函数 (cost 
function)， 在 此 基础 上 提出 了 RankNet 方法 ， 在 其 研究 中 使 用 神经 网 络 来 对 代价 函数 进行 建 
模 ， 然 后 使 用 梯度 下 降 方法 进行 优化 。 设 xe 民 为 样本 的 特征 和 向量， 函数 fR > RRA 
映射 到 实数 ， 即 用 实数 来 描述 样本 的 排序 ， 了 (xi ) > f(xj ) 表示 xi 的 排序 比 xj 更 靠 前 ， 用 
Xi > Xj 表示 。 JEX Pj = P(xi > xj )=exp(oj )/ (1+ exp(o, ))> IF oij =(f(xi)- f(xi)eR.。 
RankNet {EHZ X Hä(cross entropy) 作 为 损失 函数 ， 即 


Ci =C(0;;)= — Pj log Pj — (1— Pj) log (1— P;) 


用 来 度量 预测 概率 Bi 与 目标 概率 Bj 之 间 的 差异 。 


弗 罗 因 德 (Y. Freund) 等 人 提出 RankBoost 方法 ， 其 基本 思想 源 自 于 AdaBoost 算法 。 
RankBoost 是 综合 多 个 弱 排 序 函 数 来 得 到 最 终 的 排序 函数 ， 排 序 函 数 为 A(x) = wih(x)， 
其 中 hi 为 第 t 个 弱 学 习 器 ，wi 为 相应 弱 学 习 器 的 权重 。 为 了 使 学 习 器 能 够 体现 文档 对 的 相 
对 排序 关系 信息 ， 即 对 于 任意 两 篇 文档 x1, x2， 学 习 器 既 要 体现 文档 xi 的 排序 是 在 文档 xo 前 
面 还 是 后 面 ， 同 时 还 要 体现 出 该 排序 的 重要 性 或 者 说 是 强度 。 他 们 使 用 反馈 函数 
GB:YxYX 一 民 来 表示 相对 排序 关系 信息 ， 当 B(xi,xX2)>0 时 ， 表 示 文 档 x 的 排序 比 文档 x 更 
靠 前 ， 当 B(xi, x2)<0 时 ， 表 示 文 档 x 的 排序 比 文档 xo 更 靠 后 。 若 B(xi,X2)=0 ， 则 表示 文档 
xi 和 文档 xz 的 排序 没有 先后 关系 。|@B(xi, x) 的 大 小 表示 这 种 关系 的 重要 性 ，|@B(xi,x2)| 越 
大 ， 表 示 文 档 x 排序 比 文档 x 更 靠 前 的 关系 越 重要 。 在 定义 反馈 函数 之 后 ， 问 题 就 转化 
为 要 使 错误 文档 对 的 数目 (也 可 以 是 加 权 后 的 值 ) 最 小 化 。 


Ranking SVM 的 基本 思想 是 将 排序 问题 转化 为 二 分 类 问题 , 然后 使 用 支持 向 量 机 对 问题 
进行 求解 。 其 过 程 主要 分 为 两 步 : 
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二 


第 一 步 ， 类 似 于 RankNet, 在 Ranking SVM 中 ， 首 先 使 用 排序 函数 fx) ，( 一 般 选 择 线 
性 函数 ， 如 了 (x)=(wex)， 其 中 w 为 权重 向 量 )， 将 样本 映射 到 实数 值 ， 定 义 x 与 xj 之 间 的 
序 关 系 : 


xi > xj = f(x) — f &)= (wxi - xf) > 0 
第 二 步 ， 使 用 支持 向 量 机 模型 来 求解 该 二 分 类 问题 ， 对 应 的 二 次 优化 问题 表示 为 : 
minw hi 1- Zk (we - x) |+ Alpe? 


其 中 ， 第 K 个 文档 对 由 第 i 个 和 第 j 个 文档 组 成 ，1 是 文档 对 的 数目 ，Zi 表示 第 k 个 文档 对 
真 


基于 列表 的 排序 方法 是 以 每 个 列表 为 训练 样本 , 一 个 列表 本 喘 就 包含 了 一 些 排 好 序 的 文 
档 , 某 些 关系 已 经 隐 舍 在 列表 里 面 。 基于 列表 的 排序 根据 建立 目标 函数 的 角度 不 同一 般 可 以 
分 为 两 类 : 一 种 是 使 损失 函数 (loss function) 最 小 化 方法 。 这 一 类 中 的 不 同方 法 之 间 的 主 
要 区 别 在 于 其 使 用 的 损失 函数 不 同 。 如 RankCosine 使 用 得 分 列表 之 间 的 余弦 相似 度 来 作为 
损失 函数 ，ListNet 的 损失 函数 是 得 分 列表 之 间 的 库 尔 贝 克 - 莱 布 勒 (Kullback-Leibler) 距离 ， 
ListMLE 则 使 用 负 对 数 似 然 值 来 作为 损失 函数 ; 另 一 种 是 直接 优化 信息 检索 的 度量 指标 
(MAP, NDCG) 方法 ， 例 如 AdaRank、SVM-MAP、SoftRank、LambdaRank。 


在 评价 排序 结果 好 坏 的 时 候 , 基于 列表 的 排序 方法 会 把 查询 词 对 应 的 所 有 文档 都 考虑 进 
去 ， 而 且 可 以 将 文档 之 间 的 关系 ， 如 相似 度 等 建 模 ， 因 此 可 以 定义 更 加 有 效 的 排序 函数 ， 另 
外 ,由 于 是 面向 整个 列表 ， 它 可 以 充分 利用 文档 在 列表 中 的 位 置信 息 ， 从 而 更 加 突出 排 在 前 
面 的 文档 。 


4 ”查询 分 析 


“查询 "作为 用 户 表 达 其 信息 需求 的 主要 手段 ， 是 用 户 与 信息 检索 系统 之 间 沟 通 的 桥梁 。 
理想 情况 下 , 信息 检索 系统 能 够 正确 地 理解 用 户 的 查询 , 在 此 基础 之 上 采取 合适 的 检索 方式 ， 
返回 相应 的 结果 来 满足 用 户 的 信息 需求 。 然而 , 就 如 同 计算 机 对 自然 语言 的 理解 存在 困难 一 
样 ， 检 索 系 统 对 于 作为 用 户 与 信息 检索 系统 交互 语言 的 查询 的 理解 也 同样 面临 巨大 的 挑战 。 
近年 来 , 随 着 信息 检索 技术 的 不 断 发 展 , 对 用 户 查询 的 分 析 和 理解 的 研究 已 经 成 为 广大 研究 
者 关心 的 问题 。 在 这 里 ， 我 们 分 析 总 结 了 查询 分 析 的 相关 研究 工作 及 研究 成 果 。 


4.1 查询 优化 


查询 优化 通过 自动 处 理 用 户 查 询 经 常 出 现 错误 形式 或 表达 不 恰当 , 例如 拼写 错误 、 词 形 
不 当 、 缺 少 合适 的 操作 符 〈 如 引号 )、 缩 写 不 当 等 ， 来 优化 检索 性 能 。 


拼写 错误 是 文本 中 常见 的 错误 , 而 它 也 同样 存在 于 用 户 查 询 之 中 。 由 于 用 户 查 询 通常 非 
常 简短 ， 缺 乏 足 够 的 上 下 文 信息 ， 对 纠正 查询 拼写 错误 的 研究 提出 了 新 的 难题 。 库 色 赞 〈S. 
Cucerzan) 等 人 提出 了 利用 用 户 查 询 日 志 来 进行 查询 拼写 修改 。 他 们 认为 大 量 的 用 户 查 
询 日 志 本 身 为 我 们 提供 了 碍 询 这 种 语言 隐 式 或 显 式 的 信息 , 利用 查询 日 志 上 的 语言 统计 信息 
作为 指导 ,可 以 把 用 户 查 询 一 步 一 步 修改 为 更 合适 的 形式 。 他 们 在 文章 中 提出 了 一 种 基于 品 
音 -信道 模型 的 近代 的 查询 修改 方法 ， 这 种 方法 可 以 对 查询 中 从 简单 到 困难 的 各 种 错误 依次 
进行 修改 。 李 (音译 M. Li) 等 人 则 利用 了 分 布 相似 度 来 进一步 改进 查询 拼写 修改 的 方法 ™。 
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他 们 指出 , 正确 的 词 和 它 可 能 的 拼写 错误 之 间 的 分 布 相似 度 是 很 高 的 ,而 不 相关 的 两 个 词 之 
间 的 分 布 式 相 似 度 则 比较 低 。 因 此 , 分 布 相似 度 是 判断 一 个 词 是 否 是 男 一 个 词 的 正确 写法 的 
有 效 依据 ， 而 用 户 查询 日 志 恰 恰 是 用 来 估计 这 种 分 布 相似 度 的 极 好 的 资源 。 引 文 [21] 中 ， 作 
者 把 查询 优化 作为 为 结构 化 预测 问题 建 模 , 提出 了 一 个 一 体 化 区 分 式 查 询 优 化 模型 CRF-QR 

(Conditional Random Fields for Query Refinement， 用 于 查询 优化 的 条 件 随机 场 模 型 )， 挖 掘 
和 利用 查询 日 志 来 校正 查询 中 的 各 种 错误 形式 , 达到 优化 查询 的 目的 , 克服 了 以 往 优化 方法 
只 关注 一 种 优化 任务 的 缺点 。 


4.2 查询 元 余 分 析 


用 户 查 询 通常 只 包含 2-3 个 关键 词 ， 但 趋势 表明 用 户 查 询 的 平均 长 度 在 逐渐 增加 。 长 查 
询 通常 包含 更 加 丰富 的 上 下 文 信息 ， 更 加 详细 地 描述 了 用 户 的 查询 需求 , 但 是 同时 也 包含 一 
HRE CBM, NTR (FCI) 的 信息 )， 导 致 面向 长 查询 的 搜索 相关 性 更 差 ， 不 能 很 好 地 满 
是 用 户 需 求 。 如 何 针对 长 查询 自动 构建 更 加 简洁 的 查询 成 为 当前 各 大 搜索 引擎 关注 的 焦点 之 
一 。 AWUR FER) 词 删除 技术 通过 删除 这 些 元 余 〈 无 关 ) 信息 来 获取 更 加 简洁 的 查询 
以 提高 检索 的 性 能 。 


引文 [22] 提 出 采用 查询 词 之 间 的 互信 息 来 给 所 有 的 子 查 询 排序 。 具 体 来 说 ， 首 先 根 据 查 
询 词 之 间 的 互信 息 〈 基 于 语 料 集 ) 构建 一 个 全 连通 图 ,然后 采用 最 大 生成 树 算法 来 获取 每 个 
子 查 询 的 信息 炳 进行 排序 。 引 文 [23] 的 基本 思想 是 ， 针 对 不 同 的 用 户 查 询 相 应 地 选择 查询 扩 
张 或 删除 可 以 极 大 地 提高 查询 性 能 。 作 者 基于 引文 [22] 的 用 户 交 互 思 想 ， 提 出 结合 查询 扩张 
和 碍 询 删除 的 子 查 询 以 备用 户 选择 。 


4.3 查询 解析 


用 户 查询 包含 了 很 多 概念 与 知识 , 对 用 户 查 询 进 行 解析 , 识别 出 查询 中 的 关键 概念 (Key 
Concept)、 命 名 实体 (Named Entity) 等 深层 信息 ， 可 以 帮助 我 们 更 好 地 分 析 理 解 用 户 查 询 ， 
有 效 地 提高 信息 检索 的 智能 化 程度 。 


引文 [24] 基 于 查询 相关 (guery-dependent)、 语 料 相 关 (corpus-dependent) 和 语 料 无 关 
(corpus-independent) 等 特征 ， 采 用 机 器 学 习 的 方法 来 识别 长 查询 中 的 关键 概念 。 学 习 算 法 
采用 了 AdaBoost.M1 元 分 类 器 ， 以 C4.5 为 基本 分 类 器 。 文 章 最 后 通过 一 个 概率 模型 将 所 识 
O 别 的 概念 结合 到 排序 模型 中 来 提高 检索 的 性 能 。 引 文 [25] 研 究 了 查询 中 的 命名 实体 识别 ， 通 
过 对 用 户 查 询 包含 的 命名 实体 的 检测 与 分 类 来 进一步 解析 用 户 查 询 中 的 语义 单元 以 辅助 检 
Ro 通过 把 查询 中 命名 实体 识别 建 模 为 最 优 三 元 组 的 求解 问题 , 作者 提出 了 一 个 新 颖 的 概率 
模型 ， 结 合 对 大 规模 查询 日 志 的 挖 据 和 学 习 来 有 效 地 完成 查询 中 的 命名 实体 识别 。 


4.4 查询 扩展 


传统 的 查询 扩展 方法 主要 有 基于 相关 词 词 表 的 全 局 技术 、 基 于 相关 反馈 或 者 伪 相 关 反 馈 
的 局 部 技术 以 及 全 局 与 局 部 相 结合 的 技术 。 崔 〈 音 译 ， H. Cui) 等 人 在 文献 [26] 中 研究 了 如 
何 利 用 用 户 碍 询 日 志 来 进行 查询 扩展 。 这 种 方法 的 主要 思想 是 基于 用 户 查 询 日 志 中 的 会 话 信 
Ach 对 用 户 查 询 词 和 文档 词语 之 间 相 关 概 率 关 系 建 模 ， 并 利用 这 种 概率 关系 来 为 新 的 查询 选 
取 高 质量 的 扩展 词语 。 在 文献 [27] 中 ， 作 者 进一步 探索 了 这 种 基于 用 户 查 询 日 志 进行 查询 扩 
展 的 方法 对 于 不 同类 型 查询 (长 查询 和 短 查询 〉 的 扩展 效果 。 实 验 结果 表明 ,利用 用 户 查 询 
日 志 进 行 的 查询 扩展 方法 能 够 显著 地 超过 传统 的 基于 词 表 和 伪 相关 反馈 的 方法 。 


4.5 查询 分 类 


| 


= 
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对 用 户 查 询 的 分 类 
历 了 逐步 由 浅 入 深 的 发 
器 学 习 的 方法 来 对 查询 进行 分 类 。 


布 罗 德 (A. Broder) 在 2002 年 把 互联 网 信息 检索 中 用 户 意图 归纳 为 三 类 
类 和 事务 类 。 对 用 户 查 询 意 图 的 这 种 分 类 方法 具有 重要 的 意义 , 但 是 这 种 


包括 了 对 查询 意图 的 分 类 以 及 对 查询 话题 的 分 类 。 对 于 


展 过 程 一 一 从 基于 人 工 制 定 的 规则 对 查询 分 类 到 利 上 
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ZNSE 


查询 分 类 的 研 
查询 


ay 


] 


分 类 的 粒度 相 


大 。 如 何 利用 机 器 自动 对 用 户 查 询 分 类 是 广大 研究 者 关心 的 问题 , 沈 ( 音 
提出 了 利用 中 间 分 类 体系 作为 对 查询 自动 分 类 的 概率 框架 后 ， 这 样 的 一 


TVR 
以 中 间 分 类 体系 作为 桥梁 ， 来 将 用 户 查 询 映 射 到 目标 类 别 中 去 。 


4.6 查询 推荐 


为 了 更 好 地 辅助 用 户 表达 其 查询 意图 , 进一步 提高 用 户 的 查询 体验 , 查询 
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在 文献 [30] 中 ， 汉 赛 卡 〈B. M. Fonseca) 等 人 通 
询 推荐 。 张 志 勇 (音译 ，Z. Zhang) AJI 


3. FirteX 系统 结构 


日 志 中 的 


过 挖 据 用 户 查询 
音译 ， 四 了 用 户 查询 日 志 ， 
E 荐 BI。 一 方面 ， 他 们 研究 了 用 户 检索 过 程 中 的 序列 行为 并 对 其 


建 模 ， 


48 


译 


5 ie 


的 查询 序列 信 ， 


Dou Shen ) 
个 概率 框 


WE 
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个 会 话 中 查询 之 间 的 相似 关系 ; 另 一 方面 ， 他 们 还 为 “查询 对 ”计算 了 基于 内 容 的 相似 度 。 
这 个 相似 度 使 用 了 余弦 距离 的 形式 。 通过 把 这 两 个 相似 度 进行 线性 厂 加 ,来 对 推荐 的 查询 进 


行 排序 。 上 


利用 查询 日 志 进 行 查 询 推 荐 时 考虑 了 


rT 


kh, Be (Gre, Chien-Kang Huang) AH 


查询 会 话 中 上 下 文 的 信息 3， 他 们 认为 推荐 的 查询 应 该 是 和 整个 查询 会 话 相 关 的 ， 而 不 仅 
仅 是 和 最 近 的 一 个 查询 相关 。 


5 Firt eX 系统 设计 


FirteX 是 我 们 开发 的 一 套 支 持 大 规模 文本 的 在 线索 引 和 检索 平台 。FirteX 区 别 于 其 他 检 
索 实 验 系统 的 主要 特点 是 提供 了 一 个 动态 文本 在 线索 引 和 检索 框架 。 利用 它 , 研究 者 可 以 很 


方便 地 实现 增 量 文本 、 动态 文本 的 在 线索 引 和 检索 , 目前 已 经 实现 了 包括 动态 平衡 树 策略 在 


内 的 若干 索引 更 新 策略 。 此 外 ，FirteX 不 仅 支 持 检 索 模型 、 碍 询 反馈 、 自 然 语言 处 理 等 ， 


而 且 也 可 以 方便 地 实现 索引 更 新 算法 、 碍 询 处 理 算法 、 分 布 式 信息 检索 、 查 询 缓存 、 内 存 管 
理 ， 能 够 支持 TB 规模 数据 的 检索 要 求 。 图 3 给 出 了 FirteX 的 系统 结构 。 


6 RE 


随 着 信息 技术 的 发 展 ， 人们 需要 处 理 和 检索 的 数据 规模 越 来 越 大 , 需要 更 快 地 响应 数据 
的 变化 。 如 何 查 询 得 更 多 、 更 快 、 更 准 ， 以 及 如 何 提供 更 具 智 能 化 的 检索 技术 ， 成 为 信息 检 
索 面 临 的 挑战 。 有 鉴于 此 ， 本 文 介绍 了 信息 检索 中 使 用 的 索引 组 织 、 检 索 模 型 、 查 询 分 析 等 


| 


关键 技术 。 针 对 目前 信息 检索 技术 的 发 展 ， 本 课题 组 开发 了 高 效 开 源 检索 系统 FirteX, ZAR 
统 提供 了 对 在 线索 引 等 的 支持 ， 下 一 步 我 们 将 对 系统 支持 的 数据 规模 、 检 索 模 型 等 方面 进行 
进一步 改进 。 
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